Retour à la page d’accueil

Organisation des fichiers et données

Lors de cette séance nous allons apprendre:

  1. A organiser les fichiers dans les dossiers

  2. A organiser les données dans un fichier excel afin que ce soit compatible avec leur import dans R

  3. Ce que sont R et Rstudio et comment y importer des données

  4. Des bases de codage avec R

Etre capable de reproduire vos analyses et de les partager avec d’autres qui peuvent aussi les reproduire est essentiel.

Plusieurs scandales montrent l’importance d’une recherche reproductible et transparente:

1. Organisation des fichiers

Adapté de ce cours

Pourquoi organiser ses fichiers et documents?

  • Vous allez créer beaucoup de documents.

  • Ils vont changer au cours du temps.

  • La relation entre les fichiers va aussi changer au cours du temps.

-> Bien organiser et nommer vos fichiers et dossier vous évitera bien des problèmes.

Faites le pour vous, et surtout votre future vous (qui a déjà eu des difficulté à retrouver un ancien fichier?), et aussi pour vos collègues, collaborateurs et encadrants.

Comment organiser ses fichiers et documents?

Bien organiser ses fichiers

La manière dont vous allez organiser vos fichiers va dépendre du type de données que vous générez pour votre projet. Il n’y a donc pas de solution universelle, mais vous pouvez suivre les principes suivants pour que quelqu’un qui n’est pas familier avec votre projet puisse comprendre ce que vous avez fait en regardant vos documents. A contrario une mauvaise organisation des fichiers et documents peut rendre votre tache plus difficile.

Principes clés:

  • Décidez de la structure des fichiers et sous-fichiers avant de commencer le projet

  • Gerdez tous les documents d’un projet dans le même fichier

  • Garder les données brutes séparémment et ne les changez jamais (faites un copie que vous pouvez modifier)

  • Incluez un document README qui contient une courte description des différents documents ainsi que les métadonnées et autres information


Exemple de structure d’un projet


Bien nommer ses documents

Les principes principaux pour nommer vos documents et qu’ils doivent être:

  1. lisible par un ordinateur
  2. lisible par un humain
  3. ordonnés de manière logique dans vos fichiers


Des documents lisibles par un ordinateur

C’est important pour pouvoir facilement chercher (et trouver!) des documents d’intérêt, filtrer des documents en fonction de leur nom et extraire des informations utiles à partir du nom du document.

Pour cela:

  • ordonnez les éléments dans le nom du document du plus général au plus spécifique

  • évitez les caractères spéciaux comme * : \ / < > | " ? [ ] ; = + & £ $

  • Ne mettez pas d’espaces pour séparer les éléments dans le nom du document

  • choisissez une convention et tennez vous y:

    • toutenminuscule, exemple: adjustcolor

    • separe.par.un.point, exemple: plot.new

    • separe_par_un_tiret_bas, exemple: numeric_version

    • camelCase ou CamelCase, exemple: addTaskCallback ou SignatureMethod


Des documents lisibles par un humain

Des noms de documents lisibles par des humains doivent:

  • contenir des information sur ce que le document contient

  • éviter d’utiliser des abbréviations et codes qui ne sont pas connus de tous

  • être courts et avoir du sens


Des documents ordonnés de manière logique dans vos fichiers

Afin que les documents soient ordonnés de manière logique dans vos fichiers, commencez le nom du document avec un prefixe qui assure un ordonnancement alphabétique qui est logique pour vous. Par exemple:

  • utilisez un préfixe numérique, en s’assurant d’utiliser un zeo à gauche, par exemple 01 au lieu de 1

  • utilisez un format de date standard de type AAAA-MM-JJ

Exercice:

Vous avez collecté des données d’expression de deux gènes d’intérêt en réponse à la température dans différentes accessions d’Arabidopsis

  • Les gènes sont “X” and “Y”.
  • Vous avez mesuré leur expression à trois temps au cours d’une journée pour des plantes poussant à faible (15 C) ou haute (25 C) température.
  • Voux avez deux accessions d’Arabidopsis: “Col-0” and “Ler-1”.
  • Vous avez fait 3 réplicats biologiques.
  • Comme l’experience est assez importante, vous avez effectué les mesures d’expression à des dates différentes.

Quelle méthode utiliseriez vous pour organiser et nommer les documents pour que ce soit lisible pour un ordinateur et un humain. Proposez des noms de documents.


Ajouter version control?


2. Organisation des données dans un fichier excel

Adapté de ce cours

3. Intro à R